查看原文
其他

行业大模型+专有数据库,星环科技以“双轮驱动”快速驶入大模型时代

陆易斯 数据猿 2023-06-11

‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


如今,AIGC的旋风让信息产业来到新旧范式交替时代,毫无疑问,AI大模型等技术已经深刻地影响到所有行业的发展,“所有行业都值得用大模型重新做一遍!“。几乎每个企业的负责人都在思考,如何便捷地搭上AI的快车,重构企业核心产品,重塑用户与企业产品和服务的交互方式,获得企业的新增长点。

然而,企业在实际调研中发现,通用大模型训练难度大、投资大、运营成本高、对于特定领域的适用性不佳,无法在特定范围内获取精准答案,他们需要基于自身业务及相关数据库、资源池,借助大模型的语义理解能力,高效处理企业所需的数据,提供专家级的策略建议。

近日,在“向星力·未来数据技术峰会(FDTC)”上,星环科技行业大模型战略布局全面亮相,为行业用户提供全栈的软件工具,包括大模型开发工具Sophon LLMOps,业界首创的金融大模型“星环无涯”、大数据分析大模型SoLar“求索”等行业大模型。

星环科技创始人、CEO孙元浩表示,未来数据处理将走向智能化、多模态和平民化,其中领域大模型让数据处理的自动化程度更高、结果更能为我所用;数据处理将从单一模态向多模态进化,企业数据分析来到新的次元;数据处理平民化,让普通人不再需要掌握复杂工具,就可以快速处理数据。每个人都可以拥有一个“虚拟业务助手”。


来源:向星力·未来数据技术峰会

推出LLMOps工具链,让每个企业打造专属的大模型

ChatGPT主导的对话式AI开始渗透到各行各业,使人和信息结合比以往任何时候都更紧密。超大模型虽好,但是训练、维护的技术要求高、难度大、费用高,同时通用大模型对于特定领域的适用性不佳,结合到企业的应用仍然有巨大差距。

孙元浩表示,“大模型目前只相当于一个本科生的水平或者本科低年级的水平,可能只能作为一个实习生,但是不具备专业能力。我们预测,未来在每一个领域,在金融、政府、能源、交通,这些领域,未来都需要诞生很多领域或者行业大模型,它们具有专家的能力,能够在上面构造复杂的应用。”

为了帮助企业用户基于大模型构建未来应用,星环科技推出了Sophon LLMOps,实现领域大模型的训练、上架和迭代,让每个企业都能打造自己的专属大模型。不仅解决了企业在行业特定领域的需求,而且能够满足国内受监管的企业,如金融机构、央企、国企,不能将数据外传,本地化部署大模型的需求。

孙元浩介绍说,首先它提供了模型仓库,让用户能够选择基础大模型,也可选择一些行业大模型。在大模型的基础上,Sophon LLMOps还提供二次训练的工具,让用户能够给它增加行业知识。

第二是样本仓库的能力,可以辅助用户生成提示词(prompt)和排练提示词,同时,加上人的反馈给它做强化学习,Sophon LLMOps也提供分布式的训练框架,能够在多台机器,在每台机器多张卡的基础上进行大模型分布式训练。


来源:向星力·未来数据技术峰会(FDTC)

“通过提供完整的大模型工具链,再与星环的大数据平台结合起来,能够让每家企业或者每个行业都能打造自己的专属大模型。”孙元浩如是说。

大模型与向量和图数据库深度融合,让人人拥有个性化AI助理

大模型与星环本身具有强大优势的大数据平台结合起来,则更具有想象空间。星环科技是A股首家大数据基础软件上市公司,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务。星环科技几乎覆盖所有数据库领域,2017年和2020年其被IDC评为中国大数据市场领导者,2022年,星环科技还被Gartner评为图数据库管理的全球代表厂商。

而此次与大模型的深度融合,恰好可以利用向量数据库和图数据库的特殊能力。孙元浩在峰会上介绍说,如今人们使用大模型有三个痛点,一是训练时间比较长,二是需要高算力,三是大模型有时会产生幻觉,就是答非所问。

向量数据库的作用可以把大量行业、个性化知识语料预先上传到向量数据库中,先进行语义搜索,找到相关信息,拼接成提示词,再发给大模型,还可以提供毫秒级算力,提供了一个类似人脑海马体的记忆存储能力,如此可以高效精准地为用户提供更需要的答案。

除此之外,孙元浩在回答记者提问时说道,此前大模型无法处理实时数据的问题,现在可以通过向量数据库实时搜索的方式提供最新结果,经过向量化后,提供给大模型,大模型与以前训练的知识库结合起来再去做归纳、总结、推理。


来源:高福证券

据了解,大模型爆发以来,向量数据库同时也受到投资者的关注,近日至少有四家向量数据库的初创公司Pinecone、Weaviate、Qdrant、Chroma先后获得了融资。


来源:华福证券

在此次的向星力·未来数据技术峰会(FDTC)上,星环科技重磅发布了自研的向量数据库Transwarp Hippo,作为一款企业级云原生分布式向量数据库,星环科技Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索、高密度向量聚类等问题。

与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。

星环科技此次另一个重要发布是,推出面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0,新的功能实现了多版本的动态图,并全面与深度学习、大模型的需求对接。

我们知道,知识图谱是图数据库的重要应用场景,而图数据库与大模型可视化端到端构建工具一起,能够提供知识抽取融合、知识建模、知识图谱生成存储、基于大模型的知识问答等闭环功能。客户以知识图谱作为大语言模型提示即可发起模型微调,以较低代价就可获得行业的专属大语言模型问答应用。

孙元浩表示,“在StellarDB 5.0,我们自研构建了图嵌入的方法,输入给深度学习框架完成深度学习,具备推理能力后,可以预测多个点之间未来会不会存在边,经过图上的深度学习后,它比传统的图算法提升8倍的效能,准确率提升23%。”

孙元浩现场演示了知识图谱的构建工具结合向量数据库、图数据库和大模型,所产生的效果。当问及中粮集团今年玉米收储价是多少,普通大模型不知道,再提问“新希望生产猪饲料的主要合作上下游企业有哪些?”仍然告知缺少行业知识,而当补充了农业知识图谱后,它可以告诉你最新的收储价是3元,以及价格的影响。另外,它也能够回答猪饲料的主要供应商是正大集团。

孙元浩表示,通过这样一个工具,我们解决了大模型的三大问题,第一是把实时的知识、变化的知识能够放到大模型当中,能够让它回答。第二,它能够校正结果的准确性,可以极大地提升精度,即使不经过微调,我们也可以利用工具去构建这样的知识图谱,能够来增强大模型的能力。

我们看到,融入了知识图谱、向量数据库、模型仓库和图数据库构成的知识语义层,与模型运行层、大语言模型、提示工程层、应用前端集成层协同,能够切实帮助用户创建大模型应用,可以说,在大模型时代让每个人真正拥有了自己的个性化AI助理。

打造“金融量化”和“数据分析”两个行业“样板房”

在上述自研基础上,凭借星环科技对金融量化和数据分析两个重要场景长达十年的深耕,此次峰会上,星环科技还推出上述两个行业专属大模型,率先在垂直领域获得突破。

针对量化投研领域特定的业务逻辑,星环科技通过预训、提示、增强、推导范式的构建,实现Financial-Specific-LLM的训练,推出了金融行业量化投研大模型无涯Infinity。

据了解,星环无涯金融大模型积累了上百万金融专业领域的语料,其中涵盖了研报、公告,政策,新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,设计了上百个事件,同时标注了20多万个时间样本进行训练,同时植入上百个因子,打造政策、舆情、ESG、风险、量价、产业链等六大类因子库,使得无涯具备对包括基本面、技术面、消息面在内的金融领域准确的理解能力。


来源:向星力·未来数据技术峰会(FDTC)

值得注意的是,星环科技基于大模型的事件驱动与深度图引擎,实现对事件语义刻画、定价因子挖掘、时序编码、异构关系图卷积传播,进而构建包含事件冲击、时序变化、截面联动和决策博弈等多个维度的量化投研新范式。

同样地,基于在SQL编辑器的多年积累,结合大语言模型,星环科技推出了大数据分析大模型SoLar“求索”。

SoLar “求索”可以使用自然语言描述涉及多种数据模型的复杂业务需求,借助星环大数据平台特有的多模型技术,对于不同模态,如图、文本、结构化等数据进行关联分析和展示。业务人员可以通过自然语言,自助生成可成功执行的SQL或Cypher,从而快速获取查询的结果,能够快速降低用户的使用门槛。

孙元浩介绍道,比如业务人员有一个精准营销的需求,“找到12个月内注册的新用户,在过去新用户有三个朋友以上买过新基金”,过去要通过数据工程师来帮助实现,借助求索大模型,业务人员直接通过自然语言告诉“AI助理”,在特定数据库进行查询,便能直接生成所需结果。

同时,为了保障生产可用和避免大语言模型的“幻觉”问题,星环科技Solar求索还为客户提供了交互式数据分析的方式,方便客户利用数据表与表之间的ER图(实体-联系图),指定想使用的数据库/表,提供数据分析代码的一步步解释,从而生成可被追溯、可被理解、同时更准确的分析能力。


来源:向星力·未来数据技术峰会(FDTC)

据了解,星环科技今年在不同产品的创新,进一步落地其“数据平民化”的需求,让普通人不再需要掌握复杂工具,就可以快速处理数据。除大模型相关产品以外,此次发布会还有一系列数据平台产品的升级,对于整个公司而言,产品竞争力进一步提升。

根据此前公布的星环科技2023年第一季度财报显示,该公司实现总营收4297万元,同比增长76.4%,其在分布式数据库国产化替代等方面,已经具备了核心增长优势。不仅如此,该公司长期重视创新技术的研发,据财报显示,星环科技在2023年第一季度研发费用投入同比增长27.6%。

我们看到,星环科技最近投入自研的核心目标之一,就是进一步让大模型这一划时代的技术有效落地,落实到企业中,结合星环科技数据的全栈能力,加以专属数据库、专属大模型,进一步实现行业所倡导的“数据处理平民化,让人人成为数据科学家”这一愿景。

“现在大模型技术给我们带来了一个期望,我们可以在大模型的基础上提供人机交互接口,既可以把大模型嵌入到现有应用当中,作为大脑和智能中枢来提供智能化决策,也可以利用大模型来构建原生的AI应用,”孙元浩表示,“借助新一代的大数据和大模型工具,我们可以推断未来所有人,包括科技人员、业务人员,都可以成为数据科学家,都可以进行更高效的分析。”

文:陆易斯 / 数据猿


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存